非度量空间中的近似检索

非度量空间

传统的检索方法一般都是使用度量空间下的距离计算式计算两个数据对象间的相似性,因此三角不等性被经常应用到检索过程中。然而在多媒体信息系统信息空间中,数据对象间的距离关系并不一定都满足三角不等性,也就是不满足度量空间中对象间关系的所有性质,具有这种性质的信息空间被称为非度量空间

研究表明,在度量空间的性质中,自反、非负、对称性如果得不到满足,均可以相对简单地得到修复。例如,对称性没有得到满足,可以通过增加较小的那条边来实现它们对称。 但是如果元素间的三角不等性得不到满足,修复起来就比较复杂,而三角不等性又是传统索引技术的重要基础。

非度量空间中的近似检索方法

经过几十年的发展,数据库领域已经建立了一套基于度量空间下近似检索的方法 MAMS (metric access methods)。这些方法的相似性测量函数必须满足度量空间的所有性质,即自反性、非负性、对称性和三角不等性。

为便于实施查询时只需检索相关类别中的数据对象,度量空间中的数据对象都是基于度量空间中的性质类别划分的。尽管采用 MAMS 在处理查询时效率比较高,如果将其应用到多媒体信息管理系统中,由于它强制用户利用度量空间的性质来测量数据对象的相似性, 这种方法在非度量空间中会得到不正确的查询结果。由于多媒体数据空间不能完全遵守度量空间的所有性质,度量空间模型已不能满足实际数据检索需求。

因此,在建立索引时,需要通过新的计算方法来计算数据对象间的相似性。

常见的非度量空间距离函数

这里描述几种不完全满足度量空间性质的距离度量函数, 特别是不满足三角不等性。

  1. 动态部分函数DPF (dynamic partial function)

    DPF是基于闵可夫斯基函数的一种变异, 它只利用部分坐标进行计算对象之间的相似性。该函数的主要思想是:在一个多维向量空间中,如果两个对象相似,它们在大部分维度上都相等或者相近,只是在较少的维度上有差异。 在对象相比中,不同的对象对之间,相似维度上一般也不同, DPF能够很好地解决这个问题,并能快速地检索出相似对象。

  2. Cosine 距离(cosine distance)

    用计算两个向量间的夹角来度量向量间的相似度,没考虑向量的长度。这种测量方法广泛地应用在文本检索方面。

  3. 小数 $L_p$ 距离(fractional $L_p​$ distances)

    闵可夫斯基距离函数在向量空间中是使用得最广泛的距离计算式。闵可夫斯基函数使用了一个参数 $p$,使用 $L_p$ 表示。设 $x,y$ 为 $U^d$ 中的两个有向向量,$L_p$ 的定义如下:

    小数 $L_p$ 是指 $0\delta(A,B)+\delta(B,C)$ ,所以这三个点并不满足三角不等性。

    image-20181010191233016

    由上述分析可见,可以通过改变小数 $L_p$ 距离中的参数 $P$ , 进而控制空间三角不等性的破坏程度。由此,可以方便地计算在非度量空间中三角不等性破坏不同程度下,采用 $L_p$的判断相似对象的准确率和效率。

0%